![]() |
||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||
| 主要功能 | ||||||||||||||||||||||||||||||
| 网络蜘蛛根据用户设定的入口网址自动收集网页数据 强大完备的后台管理 充分挖掘.net性能,百万数据瞬间搜索 完美的前台web页面媲美专业搜索 中文分词接口 |
||||||||||||||||||||||||||||||
| 目录 | ||||||||||||||||||||||||||||||
| 系统需要 构成 工作原理 安装 管理方法 关于管理的建议 其它 常见的问题 (必要) 关于 购买没有限制的版本 |
||||||||||||||||||||||||||||||
| 总体 | ||||||||||||||||||||||||||||||
| 这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。 适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。 使用sql server 2000做数据库。 |
||||||||||||||||||||||||||||||
| 系统需要 TOP | ||||||||||||||||||||||||||||||
| 本系统基与Microsoft .Net Framework 1.1 下
相应软件下载:MDAC_TYP.EXE
dotnetfx.exe
|
||||||||||||||||||||||||||||||
| 构成 TOP | ||||||||||||||||||||||||||||||
| 分别在两个目录下面 search目录下:
noise.chs 噪音词文件。 build.sql 建立数据的文件。 ReadMe目录 说明文件目录。 |
||||||||||||||||||||||||||||||
| 工作原理 TOP | ||||||||||||||||||||||||||||||
![]() 以上是示意图,但是在实际使用中并不需要如此多的计算机,一台计算机就可以完成系统的安装。 spider服务器负责对主数据库服务器中网址列表里的内容进行搜索,主服务器中的数据库同时存有每个spider的工作参数,而每个spider由自己的id相互区分。 spider服务器所得到的数据将分别输入各数据库服务器,数据库服务器经过"全文索引"后可以提供用户检索。 IIs服务器获得了用户搜索的关键字后,将根据主数据库服务器中数据表的分配情况分布的在数据库服务器中检索。并呈现给用户。 注:数据库服务器需要Windows 2000 advanced server 或者2003下,并安装sql server 2000企业版。 全文索引:是Microsoft公司的一项技术。对海量数据的检索是非常耗时的工作,全文索引是高效的解决方法。 |
||||||||||||||||||||||||||||||
| 安装 TOP | ||||||||||||||||||||||||||||||
| 1、将search目录下面的文件放置到IIs中的一个虚拟目录中 2、将spider目录下的文件放置到电脑(可以是与IIs服务器同一个电脑)任意目录,并配置CF.ini文件 ![]()
3、打开build.sql文件(记事本就可以),在主数据库服务器中Sql查询分析器中运行它,它将建立一个叫main的数据库(见注意)。 具体方法: 用记事本打开build.sql,把里面的内容复制到sql查询分析器中的查询窗口,按“F5”. 4、配置search目录下面的web.config文件,在<appSettings>....</appSettings>里有一 <add key="constring2" value="Data Source=server-huang;Initial Catalog=main;User Id=sa;Password=00110920;" /> 其中红色表示主数据库服务器的地址或则主数据库服务器名褐色表示主数据库服务器中数据库名,一般不做修改绿色表示主数据库服务器中的用户名黄色表示主数据库服务器的用户名 修改以上的各项 5、安装完毕。 注意 : 在build.sql文件里有如下句 CREATE DATABASE [main] ON (NAME = N'main_Data', FILENAME = N'c:\maindata' , SIZE = 2, FILEGROWTH = 10%) LOG ON (NAME = N'main_Log', FILENAME = N'c:\mainlog' , SIZE = 1, FILEGROWTH = 0%) COLLATE Chinese_PRC_CI_AS GO 红色 部分表示建立文件的路径,可能需要根据你的情况修改。 |
||||||||||||||||||||||||||||||
| 管理方法TOP | ||||||||||||||||||||||||||||||
本系统管理是通过web的方式进行管理,即使你身在远处,只要有能上网的计算机,就可以对本系统进行管理。
绿色部分一般是需要用户修改的 ( NAME = name2, 是一个扩展的文件组由()包含,一个数据库可以由多个这样的文件组(或者一个)组成分配到各磁盘空间,如果该文件组是数据库文件的最后一个文件组(不包含日志文件)那么最后的","应该去掉,否则会出错。 ( NAME = name1, 这个是主文件组,只是文件扩展名不同
3、新添加spider 是由order值的降序排列的 |
||||||||||||||||||||||||||||||
| 关于管理的建议TOP | ||||||||||||||||||||||||||||||
| 过程 本系统的管理过程可以简单的理解成一个建立“成熟数据表”的过程。过程如下: 一个空白的数据表(未被激活、未被全文索引)-->被某spider填充完毕-->启动该表的全文索引-->一个"成熟"的数据表-->激活该数据表-->过程完毕 其中最后一次启动全文索引的时间将显示在数据表id号后,如果为空,表是该数据表未被索引。 性能 本系统将一个庞大的数据分解到很多小的数据表,所以分表是提高性能的关键。 本系统性能很大部分取决于电脑的性能,但是不要试图将大量数据填充如一个数据表,如当数据表填充数据量在5万(视计算机性能定)时,你可能就需要停止对它的填充,将spider转移到下一数据表。 一般规则 新制作好的成熟数据库应将order值设置为最高,制作完成太久的数据库可以删除。 |
||||||||||||||||||||||||||||||
| 其它TOP | ||||||||||||||||||||||||||||||
| 配置web.config的其它项目 <add key="open" value="yes" /> <add key="timespan" value="1" /> 这个两段是关于“用户登陆网站”的设置。 红色表是用户登陆网站功能开放改为"no"将关闭该功能 兰色表示“防恶意输入”的延迟时间,某一用户连续输入网址的最短间隔时间 <add key="statement" value="你必须同意如下 1、站点内容必须符合国家法律 2、站点可以被稳定的访问" /> 以上是设置用户在登陆站点时必须同意的协议内容。 配置管理密码 在web.config里有如下部分,此部分设置对登陆log.aspx时候有效。 <add key="user" value="admin" /> <add key="password" value="pass" /> 红色表示用户名 兰色表示密码 外观配置 本程序的呈现给用户的部分没使用图片,用户可以修改html代码,但在修改时候请小心修改<%..%>里的部分,不然可能会导致程序出错。 inc目录里有页面的头部和尾部的代码。 |
||||||||||||||||||||||||||||||
| 常见问题TOP | ||||||||||||||||||||||||||||||
| 1、全文索引时都会出现的问题 在我使用sql server 2000中文企业版的时候出现的问题,中文全文索引不起作用,任何关键字将被视为噪音词。 解决办法如下: 搜索计算机"noise.chs"文件,并将该文件复制到目录 您的sql安装时指定的数据库目录\MSSQL\FTDATA\SQLServer\Config 里 。本软件包里也提供该文件。 2、用户搜索时显示“无活动的数据表” 是因为你没有被激活的数据表 3、用户在搜索是出错 可能是因为在你激活的数据库中的有一个或者多个数据表未启动全文索引 4、删除数据表的问题 当一个数据库中最后一个数据表被删除后,这个数据库将不被列表出来,但是并不代表这个数据库被删除,只是里面的数据表被删除了。 5、数据组文件组的问题 文件组应该分配到有足够磁盘空间的盘。这可能需要用会对sql一定的了解,如果不太清楚可以参见相关资料。 |
||||||||||||||||||||||||||||||
| 关于TOP | ||||||||||||||||||||||||||||||
| 龙蛛搜索引擎 联系QQ:93761964 E-mail:mysearch@126.com | ||||||||||||||||||||||||||||||
| 购买没有限制的版本TOP | ||||||||||||||||||||||||||||||
| 本软件的免费版本有如下限制: 1、spider的线程只能为一个 2、对某一url的最大页面数只能为50页 3、会有我的页面标记 付费版不会有以上限制而且: 1、无限升级的服务,在以后改进的版本中会免费的得到更新。 2、技术支持,会免费的获得技术在先支持,解决安装和使用上的问题。 3、改进后的spider程序。 |
||||||||||||||||||||||||||||||